Aeóû Ø Ôôöøññòø Ó Óñôùøøö Ëëëëòòò¸éùùùò Ååöý ² Ï×ø¹ Ðð Óððððð¸íòòúö××øý Ó Äóòòóòº

نویسندگان

  • Norbert Gövert
  • Mounia Lalmas
  • Norbert Fuhr
چکیده

The automatic categorisation of web documents is becoming crucial for organising the huge amount of information available in the Internet. We are facing a new challenge due to the fact that web documents have a rich structure and are highly heterogeneous. Two ways to respond to this challenge are (1) using a representation of the content of web documents that captures these two characteristics and (2) using more e ective classi ers. Our categorisation approach is based on a probabilistic description-oriented representation of web documents, and a probabilistic interpretation of the k-nearest neighbour classi er. With the former, we provide an enhanced document representation that incorporates the structural and heterogeneous nature of web documents. With the latter, we provide a theoretical sound justi cation for the various parameters of the k-nearest neighbour classi er. Experimental results show that (1) using an enhanced representation of web documents is crucial for an e ective categorisation of web documents, and (2) a theoretical interpretation of the k-nearest neighbour classier gives us improvement over the standard k-nearest neighbour classi er. ∗This work has been carried out in the framework of the EuroSearch project, LE4-8303. †Now at Department of Computer Science, Queen Mary & Westeld College, University of London.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 1999